As the demand for autonomous driving increases, it is paramount to ensure safety. Early accident prediction using deep learning methods for driving safety has recently gained much attention. In this task, early accident prediction and a point prediction of where the drivers should look are determined, with the dashcam video as input. We propose to exploit the double actors and regularized critics (DARC) method, for the first time, on this accident forecasting platform. We derive inspiration from DARC since it is currently a state-of-the-art reinforcement learning (RL) model on continuous action space suitable for accident anticipation. Results show that by utilizing DARC, we can make predictions 5\% earlier on average while improving in multiple metrics of precision compared to existing methods. The results imply that using our RL-based problem formulation could significantly increase the safety of autonomous driving.
translated by 谷歌翻译
相对摄像头姿势估计,即使用在不同位置拍摄的一对图像来估算翻译和旋转向量,是增强现实和机器人技术系统中系统的重要组成部分。在本文中,我们使用独立于摄像机参数的暹罗体系结构提出了端到端的相对摄像头姿势估计网络。使用剑桥地标数据和四个单独的场景数据集和一个结合四个场景的数据集对网络进行培训。为了改善概括,我们提出了一种新颖的两阶段训练,以减轻超参数以平衡翻译和旋转损失量表的需求。将提出的方法与基于CNN的一阶段培训方法(例如RPNET和RCPNET)进行了比较,并证明了所提出的模型在Kings College,Old Hospital和St Marys上提出的翻译量估计提高了16.11%,28.88%和52.27%教堂场景分别。为了证明纹理不变性,我们使用生成的对抗网络研究了提出的方法的概括,将数据集扩展到不同场景样式,作为消融研究。此外,我们对网络预测和地面真相构成的异性线进行定性评估。
translated by 谷歌翻译
在城市城市,随着行人和个人移动设备(PMDS)使用的共用空间的可接受性,需要务实的社会交流途径规划和导航管理政策。因此,我们提出了一个社会可接受的全球航线计划,并评估了由此产生的全球路线的易读性。我们建议选择全球化路线的方法避免了街道穿透共享空间和具有密集使用概率的主要路线。实验研究表明,可以有效地发现社会可接受的路线,平均速度长度为10%的路线长度,具有最佳的Hyperpa-rameters。这有助于PMDS达到目标,同时采取社会可接受和安全的路线,与不同PMDS和行人的最小相互作用。当PMD与分享空间中的行人和其他类型的PMDS互动时,MI-CRO-Mobionsion模拟对于可接受和安全的导航政策,是主要使用的。社会力模型是行人模拟的艺术状态,用于捕获行人行为随机动作的CAL-IBRATED。具有校准的社会力量模型可以模仿PMDS在行人混合导航方案中所需的行为。基于校准模型,执行共享空间链路和栅极结构的模拟,以帮助与决定等待和停止时间相关的策略。此外,基于模拟PMD与PEDERRI-ANS的交互,如果GPS传感器的分辨率为0.2米或更小,则可以获得具有更精细分辨率的位置数据。这将有助于正式化更好的建模,因此更好地进行微观迁移率政策。
translated by 谷歌翻译
Multi-Task Learning (MTL) has shown its importance at user products for fast training, data efficiency, reduced overfitting etc. MTL achieves it by sharing the network parameters and training a network for multiple tasks simultaneously. However, MTL does not provide the solution, if each task needs training from a different dataset. In order to solve the stated problem, we have proposed an architecture named TreeDNN along with it's training methodology. TreeDNN helps in training the model with multiple datasets simultaneously, where each branch of the tree may need a different training dataset. We have shown in the results that TreeDNN provides competitive performance with the advantage of reduced ROM requirement for parameter storage and increased responsiveness of the system by loading only specific branch at inference time.
translated by 谷歌翻译
Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.
translated by 谷歌翻译
数字化和自动化方面的快速进步导致医疗保健的加速增长,从而产生了新型模型,这些模型正在创造新的渠道,以降低成本。 Metaverse是一项在数字空间中的新兴技术,在医疗保健方面具有巨大的潜力,为患者和医生带来了现实的经验。荟萃分析是多种促成技术的汇合,例如人工智能,虚拟现实,增强现实,医疗设备,机器人技术,量子计算等。通过哪些方向可以探索提供优质医疗保健治疗和服务的新方向。这些技术的合并确保了身临其境,亲密和个性化的患者护理。它还提供自适应智能解决方案,以消除医疗保健提供者和接收器之间的障碍。本文对医疗保健的荟萃分析提供了全面的综述,强调了最新技术的状态,即采用医疗保健元元的能力技术,潜在的应用程序和相关项目。还确定了用于医疗保健应用的元元改编的问题,并强调了合理的解决方案作为未来研究方向的一部分。
translated by 谷歌翻译
用于分析化学数据的计算技术的引入引起了对生物系统的分析研究,称为“生物信息学”。生物信息学的一个方面是使用机器学习(ML)技术在各种情况下检测多变量趋势。最紧迫的情况之一是预测血脑屏障(BBB)的渗透性。治疗中枢神经系统疾病的新药物的开发由于在血脑屏障中的渗透功效不佳而带来了独特的挑战。在这项研究中,我们旨在通过分析化学特征的ML模型来减轻此问题。这样做:(i)给出了相关的生物系统和过程以及用例的概述。 (ii)第二,对检测BBB渗透性的现有计算技术进行了深入的文献综述。从那里开始,确定了跨电流技术的一个方面,并提出了解决方案。 (iii)最后,开发,测试和反映了通过被动扩散在整个BBB上具有确定特征的药物渗透性的两部分,以量化具有定义特征的药物的渗透性。使用数据集进行的测试和验证确定预测LOGBB模型的平方误差约为0.112单位,而神经炎症模型的均方误差约为0.3个单位,胜过所有相关研究。
translated by 谷歌翻译
在过去的十年中,水下事物的互联网(IOUT)在环境监测和勘探,国防应用等应用程序中取得了迅速的动力。传统的IOUT系统使用机器学习(ML)方法,这些方法满足了可靠性,效率和及时性的需求。但是,对进行的各种研究的广泛审查突出了IOUT框架中数据隐私和安全性的重要性,这是实现任务关键应用程序中预期结果的主要因素。联邦学习(FL)是一个有安全的,分散的框架,是机器学习的最新发展,它将有助于满足IOUT中常规ML方法所面临的挑战。本文概述了FL在IOUT中的各种应用,其挑战,开放问题并指示未来研究前景的方向。
translated by 谷歌翻译
CMOS传感器采用行明智的采集机制,同时成像一个场景,这可能导致已知被称为捕获图像中的滚动快门(RS)失真的不希望的运动伪影。现有的单图像RS整流方法尝试通过使用针对特定的场景量身定制的算法来计算这些扭曲,该算法根据具有已知的地面真理运动参数的内在相机参数或基于学习的框架的信息。在本文中,我们提出了一个端到端的深神经网络,用于单幅图像RS整流的具有挑战性的任务。我们的网络由运动块,轨迹模块,行块,RS整流模块和RS再生模块(仅在训练期间使用)组成。当轨迹模块将估计的运动参数拟合到三阶多项式时,运动块预测输入RS失真图像的每一行的摄像机姿势。行块预测必须与目标I.E中的每个像素相关联的相机运动,RS整流图像。最后,RS整流模块使用运动轨迹和行块的输出来扭曲输入RS图像以到达畸变互联图像。为了在训练期间更快的收敛,我们还使用RS再生模块,该RS再生模块将输入RS图像与估计的运动参数失真的地面真理图像进行比较。我们模型中的端到端制定不会将估计的动作限制为地面真理运动参数,从而成功地将RS图像与复杂的现实生活相机运动进行了整理。合成和实时数据集的实验表明,我们的网络在定性和定量上占据了现有技术的现有技术。
translated by 谷歌翻译
脸部是人类识别最广泛使用的特征之一,即使在许多大规模的应用中也是如此。尽管在面部识别系统中推进技术进步,但它们仍然面临由姿势,表达,闭塞和老化变化引起的障碍。由于Covid-19大流行,非接触式身份验证变得非常重要。要限制大流行,人们已经开始使用面膜。最近,已经对面膜对成人面部识别系统的影响进行了少数研究。然而,老化与面部面膜对儿童主体识别的影响尚未得到充分的探索。因此,本研究的主要目的是与面罩和面罩和面部识别系统的其他协变量分析儿童纵向冲击。具体而言,我们在儿童串行验证和识别设置下对三个顶级执行公共面部匹配器和COVID-19商业现成(COTS)系统的比较调查,使用我们所产生的合成面具和识别设置。面具样品。此外,我们调查了眼镜与掩模和无面具的纵向后果。该研究利用无面罩纵向儿童数据集(即扩展的印度儿童纵向面部数据集),其中包含$ 26,258 $面部图像的$ [2,18] $ 3.35 $的平均时间跨度年。实验结果表明,自动面部识别面膜的问题通过老化变化复合。
translated by 谷歌翻译